基于性能势的改进平均奖赏强化学习算法研究

基于性能势的改进平均奖赏强化学习算法研究

作者:师大云端图书馆 时间:2020-06-25 分类:参考文献 喜欢:2144
师大云端图书馆

【摘要】强化学习是人工智能领域内用于解决学习控制问题的一个重要方法。机器人仿真足球比赛是一个多智能体系统研究的标准问题,具有动态实时、分布式控制、不确定环境中的合作和对抗等特点,是人工智能、控制决策和智能机器人领域发展的一项重要研究。传统的强化学习算法在解决RoboCup智能体策略问题时,仍存在算法收敛速度慢,环境不确定性强、参数敏感性高等问题。针对强化学习算法存在的上述问题,本文提出了相应的改进方法。本文主要的工作和创新点如下:首先,本文对强化学习发展进程、强化学习基础理论及主要算法和性能势理论进行基本介绍,并对其在求解过程中的优缺点进行分析。其次,传统平均强化学习在求解智能体的个体技术过程中会产生求解速度过慢、局部最优等问题。为了提高球员的个体技术性能,我们采用性能势强化学习算法对球员个体踢球技术进行离线训练。通过实验验证,结果表明这一算法在这一问题上收敛速度和成功率都优于传统强化学习算法。最后,我们提出了基于性能势强化学习的多智能体协作算法。该方法不仅要解决多智能体系统状态空间的问题,还要考虑多个智能体同时学习及回报值问题。本文将改进的多智能体G学习算法运用在Keepaway平台上,体现了良好的性能表现。本文工作都是基于RoboCup2D机器人足球仿真球队GDUT_TiJi架构上实现的,在完成球队代码的实现后,我们分别参加了2013RoboCup2DSoccerSimulationWorldCup和2013年中国机器人大赛暨Robocup公开赛,并获得了理想成绩。
【作者】杨宛璐;
【导师】陈玮;
【作者基本信息】广东工业大学,控制理论与控制工程,2014,硕士
【关键词】足球机器人;多智能体;强化学习算法;平均强化学习算法;性能势;

【参考文献】
[1]龚仓.典型环境介质中重金属种态研究[D].成都理工大学,分析化学,2013,硕士.
[2]张思英.PD-L1在人胎盘间充质干细胞上的表达及生物学意义研究[D].滨州医学院,免疫学,2011,硕士.
[3]李昀格.河北电力集团ERP系统下的内部控制建设[D].河北大学,会计,2014,硕士.
[4]吴志晖.市民社会理论视阈下的上海青年社会组织研究[D].第二军医大学,马克思主义基本原理,2013,硕士.
[5]闫蔚.面向装配的CAD系统标准件建库工具[D].天津大学,机械制造及自动化,2004,硕士.
[6]袁澄恺.基于FPM的员工自助服务系统设计[D].复旦大学,软件工程,2012,硕士.
[7]王成.基于GIS和AHP法的乡村避暑地选址研究[D].西南大学,人文地理学,2014,硕士.
[8]黄金山.大庆市高校羽毛球选修课教学现状调查与对策分析[D].吉林体育学院,体育教学(专业学位),2013,硕士.
[9]杨寓涵.发展型社会政策视角下农村养老保障问题研究[D].吉林大学,社会保障,2013,硕士.
[10]安晨光,曹建,丁家峰.基于SOFC的变压器油中溶解气体分析在线监测仪[J].电力系统自动化,2008,14:82-85.
[11]凡天一.综合行政办公系统的设计与实现[D].吉林大学,软件工程,2013,硕士.
[12]陈大为.精馏塔内部能量集成方式及其比较[D].天津大学,化学工程,2013,硕士.
[13]李园薇.城市“社区非正式组织”建构路径及功能研究[D].南京大学,社会工作(专业学位),2013,硕士.
[14]石永磊.股票流动性与预期收益率的关系[D].浙江工商大学,金融学,2013,硕士.
[15]高莉娜.基于网络环境的教师协作反思模式研究[D].宁波大学,教育技术学,2013,硕士.
[16]侯文君.朔州至准格尔铁路综合电气化工程项目管理应用研究[D].西南交通大学,项目管理,2013,硕士.
[17]侯晔华.甲胺基阿维菌素工业性试验优化方法研究[D].武汉理工大学,交通运输工程,2003,硕士.
[18]潘代.鼻咽癌侵犯咽旁间隙的超声表现及其临床价值[D].广西医科大学,影像医学与核医学(专业学位),2013,硕士.
[19]潘福兴.中共中央西南局保持干部作风纯洁研究(1949-1954)[D].西南大学,中国近现代史基本问题研究,2014,硕士.
[20]丁松燕.荧光超支化聚合物/纳米粘土仿贝壳结构复合膜材料[D].合肥工业大学,2014.
[21]李海舰,陈小勇.企业无边界发展研究——基于案例的视角[J].中国工业经济,2011,06:89-98.
[22]李明.电子商务环境下B2C企业供应链风险评价及应用研究[D].武汉科技大学,管理科学与工程,2012,硕士.
[23]关学忠,曲洪权,王利国,刘志德.一种自适应广义预测极点配置加权控制器[J].控制与决策,2002,05:621-624.
[24]蒋优君.孕母患自身免疫性甲状腺疾病对婴儿甲状腺功能影响的多因素分析[D].浙江大学,儿科学,2004,硕士.
[25]周乃锋.钳形镍化合物的合成、表征及其在Suzuki偶联反应中的应用[D].郑州大学,有机化学,2013,硕士.
[26]徐超群.半散放赛加羚羊种群遗传多样性的研究[D].北京林业大学,野生动植物保护与利用,2013,硕士.
[27]王睿.隧道衬砌裂缝车载检测图像分析研究[D].西南交通大学,桥梁与隧道工程,2012,硕士.
[28]周忠玉.北京地区上呼吸道感染急诊就诊人数与气象条件关系的研究[D].兰州大学,应用气象学,2013,硕士.
[29]张倩倩.辩诉交易制度中国化的理性建构[D].山东大学,法律(专业学位),2013,硕士.
[30]张桂彬.正常人肋骨形态与力学特点及两种固定方式的生物力学研究[D].河北医科大学,外科学,2013,硕士.
[31]于茜茜.论杨老黑少年侦探小说[D].安徽大学,中国现当代文学,2013,硕士.
[32]马燮.模拟质子入射微孔膜时的导向作用[D].兰州大学,原子与分子物理,2013,硕士.
[33]买巧利.综放工作面采空区遗煤自燃特性研究[D].西安科技大学,安全技术及工程,2013,硕士.
[34]任必春.变参数欠驱动平面五杆机构混沌运动的研究[D].西南交通大学,机械工程,2014,硕士.
[35]洪翔.非线性集装运输包装系统动态逆子结构理论与实验研究[D].江南大学,包装工程,2013,硕士.
[36]刘万迪.我国“复合集约型”老年住区的建构与设计研究[D].沈阳建筑大学,建筑学,2013,硕士.
[37]李玉俊.社会管理创新视角下的流动人口生育服务管理研究[D].云南大学,公共管理,2012,硕士.
[38]任秀珍,王永初.按一阶梯度设计极值控制系统的方法[J].冶金自动化,1982,05:42-48.
[39]王文静.头穴丛刺结合功能性电刺激治疗脑卒中患者膝过伸的临床观察[D].黑龙江中医药大学,针灸推拿学(专业学位),2013,硕士.
[40]丁超.阳离子脂质体为载体的基因体内递送效果研究[D].大连医科大学,药理学,2012,硕士.
[41]胡冰倩.大学生服饰消费行为及需求的探究[D].陕西科技大学,设计艺术学,2013,硕士.
[42]刘炜.F550Z海洋平台用钢埋弧焊剂研制及焊接接头力学性能研究[D].江苏科技大学,材料加工工程,2013,硕士.
[43]佟志国.天津港船舶岸电系统技术经济研究[D].天津大学,项目管理,2013,硕士.
[44]盛东方.移动学习资源开发与管理方法研究[D].南京大学,信息管理工程,2013,硕士.
[45]李思默.女性主义视域下王蕙玲影视作品的女性形象研究[D].西北大学,戏剧与影视学,2014,硕士.
[46]聂琳.美国原旨主义宪法解释源流分析[D].重庆大学,宪法学与行政法学,2014,硕士.
[47]曹国强.卡车发动机舱流场与散热性能研究[D].南京理工大学,车辆工程,2013,硕士.
[48]李文静.Johnson结合方案上的Bannai维数问题[D].天津职业技术师范大学,应用数学,2013,硕士.
[49]周泓宇.基于类型学的榆林卫城四合院民居研究[D].北京交通大学,2014.
[50]方勇,杨洪耕,肖先勇.电力系统二阶共振点稳定模式的最简正规形分析[J].电力系统自动化,2013,04:41-46.

相关推荐
更多